摘要。对足球等侵入性运动的分析具有挑战性,因为比赛情况在时间和空间上不断变化,多个智能体单独识别比赛情况并做出决策。以前使用深度强化学习的研究通常将球队视为单个智能体,并评估每个离散事件中持球的球队和球员。那么,在时空连续的状态空间中评估多个球员(包括远离球的球员)的动作是一项挑战。在本文中,我们提出了一种基于多智能体深度强化学习的单一整体框架中评估有球和无球足球运动员可能采取的动作的方法。我们考虑连续状态空间中的离散动作空间,模仿谷歌研究足球,并利用监督学习进行强化学习中的动作。在实验中,我们分析了与常规指标、赛季进球和专家比赛评分的关系,并展示了所提方法的有效性。我们的方法可以评估多名球员在整个比赛过程中如何连续移动,这很难离散化或标记,但对于团队合作、球探和球迷参与至关重要。
![arXiv:2305.17886v2 [cs.AI] 2023 年 12 月 1 日PDF文件第1页](/bimg/d/dff31514e9b750a4419103283385af0442f83234.webp)
![arXiv:2305.17886v2 [cs.AI] 2023 年 12 月 1 日PDF文件第2页](/bimg/7/775237491fca94e944fa7b93d1d8c5094b8f1072.webp)
![arXiv:2305.17886v2 [cs.AI] 2023 年 12 月 1 日PDF文件第3页](/bimg/8/887d60ade1a8b67c97b5cd4085a6062c64496296.webp)
![arXiv:2305.17886v2 [cs.AI] 2023 年 12 月 1 日PDF文件第4页](/bimg/7/7783b349956795dc0308503c88d476c055f24911.webp)
![arXiv:2305.17886v2 [cs.AI] 2023 年 12 月 1 日PDF文件第5页](/bimg/f/fd6c29ad8142c03f6133ad05de18f5442e4b6efd.webp)
